Los modelos Gemini de Google obtienen los mejores resultados en juegos de mesa sociales. Google DeepMind, en colaboración con Kaggle, amplió la plataforma “Game Arena” con dos nuevos juegos: Hombre Lobo y Póker. La plataforma evalúa modelos de IA en juegos estratégicos: el ajedrez mide el razonamiento lógico, Hombre Lobo pone a prueba habilidades sociales como la comunicación y la detección del engaño, y el póker evalúa la gestión del riesgo y la toma de decisiones con información incompleta.
Según el planteamiento del benchmark, estos juegos permiten mediciones más objetivas de capacidades como planificación y decisiones bajo incertidumbre. En las clasificaciones actuales, Gemini 3 Pro y Gemini 3 Flash ocupan los primeros puestos en todas las tablas. Además, el benchmark de Hombre Lobo también se utiliza para investigación de seguridad: sirve para comprobar si los modelos pueden reconocer intentos de manipulación sin exponerlos a riesgos reales. De acuerdo con el CEO de Google DeepMind, Demis Hassabis, la industria necesita pruebas más exigentes para evaluar los modelos más recientes.
ES
EN